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Моделювання багаторівневого поскладового 
розпізнавання мовленнєвого сигналу 


В статті проводиться поширення багаторівневої багатозначної моделі автоматичного розпізнавання злитого 
мовлення на випадок поскладового розпізнавання. Розглядаються два рівні з трьох. На першому рівні 
проводиться розпізнавання в умовах поскладової граматики, на другому рівні проводиться оброблення 
(постпроцесинг) вихідних даних першого рівня з метою отримання відповідних послідовностей слів. 
В описаній моделі постпроцесингу беруться до уваги отримані оцінки акустичних складових мовленнєвого 
сигналу, а послідовність і фонетичні особливості разом з лексиконом. Аналізуються шляхи вибору множини 
одиниць на складовому рівні мовленнєвих образів. Описується багатодикторний мовленнєвий корпус і 
лексикон, що використані в експериментальному дослідженні. Обговорюються результати експериментів, 
проблеми та майбутні дослідження. 


Вступ 


У системі багаторівневого багатозначного розуміння мовленнєвого сигналу, описаній 
у ПІ), злите мовлення спершу розпізнається як послідовність фонем, а потім ця послідов- 
ність фонем перетворюється на послідовність слів та проводиться смислова інтерпретація. 

Незважаючи на те, що найкращий метод розуміння мовленнєвого сигналу 
полягає в його одночасному розпізнанні та смисловій інтерпретації, конструювання 
такої багаторівневої системи є можливістю розподілити науково-дослідну роботу між 
експертами в акустиці, фонетиці, лінгвістиці та інформатиці. Очевидно, що багаторівнева 
структура смислової інтерпретації мовлення є найбільш продуктивною при створенні 
систем диктування та систем усного діалогу для ряду надзвичайно флективних мов з 
відносно вільним порядком слідування слів, до яких відносяться і слов'янські мови. 

Слід зауважити, що результат дії кожного з рівнів може містити похибки, але 
ці похибки мають бути контрольовані таким чином, щоб отримати правильний підсум- 
ковий результат послівного розпізнавання та/або смислової інтерпретації мовлення. 

Такий підхід може бути використаний при створенні багатомовних систем автома- 
тичного розпізнавання мовлення, у комбінації з підходом, що має на меті виключити 
залежність оброблення мовленнєвого сигналу від конкретної мови |21. 

У попередніх дослідженнях на першому рівні розглядався узагальнений фонемний 
розпізнавач, який дає відповідь розпізнавання у вигляді М 2» 1 кращих послідовностей 
фонем разом з їх акустичними складовими в умовах вільного порядку слідування фонем (1. 
На другому рівні узагальнений послівний розпізнавач проводить постпроцесинг резуль- 
татів фонемного розпізнавання попереднього рівня. При цьому були досягнуті прийнятні 
результати експериментальних досліджень на базі даних одного диктора в умовах 
розпізнавання окремо вимовлених слів. 
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Знання про акустику, фонетику, Акустично-фонемні Знання про природну мову 
фонологію, моделі мовотворення, моделі, лексикон, (Могапеїт, синтаксис, 
індивідуальні особливості конкорданс, інтонаційні семантика, прагматика, 
диктора та ритмічні моделі моделі зовнішнього світу) 


»з 

сишен Узагальнене ||. | Постпроцес дк Юре І З Результяг 
злитого поркланове найкращі роцесор | найкращі нтерпрет розпізнава- 
мовлення - послідов- поскладового тор злитого Б нитусної 
для розпізнавання . розпізнавання | послідов- мовлення | мови 

і цінні ності слів 
розпізна- складів 
вання 1-й рівень 2-й рівень 3-й рівень 


Рисунок І - Трирівнева структура системи поскладового розпізнавання усної мови 


Надалі планувалося використовувати в експериментальних дослідженнях мовлен- 
нєву базу даних (корпус) кооперативу дикторів. Крім того, передбачалася інтеграція 
лексикону в процес обчислення значень змінних у вузлах графа постпроцесора з метою 
зменшення розгалужень на графі. Проблема вибору мовленнєвого образу, яким оперує 
постпроцесор, також залишалася відкритою. 

У статті розглянуто поскладову модифікацію багатозначної трирівневої системи 
розуміння мовленнєвого сигналу. Структура цієї системи показана на рис. 1. Вона 
складається з трьох частин. Це узагальнений розпізнавач мовленнєвих образів на 
рівні нижчому, ніж слово, тобто складів, постпроцесор поскладового розпізнавання та 
інтерпретатор злитого мовлення. 

Узагальнений поскладовий розпізнавач надає М 2» І кращих відповідей розпізна- 
вання в умовах вільної (або відносно вільної) поскладової граматики. Потім постпроцесор 
поскладового розпізнавання аналізує результати першого рівня, щоб належним чином 
згенерувати М2 22 1 можливих послідовностей слів. Виходячи з цих послідовностей слів, 
інтерпретатор злитого мовлення приймає рішення стосовно смислу, який передається, з 
використанням знань про природну мову. 

У розділі І ми обтрунтовуємо вибір мовленнєвих образів для першого рівня на 
основі складів. У розділі 2 описується постпроцесор, засобами якого здійснюється 
перехід від послідовностей складів до послідовностей слів. У розділі 3 ми характе- 
ризуємо базу даних і знань, яка використовується при розпізнаванні. Розділ 4 присвячено 
експериментальним дослідженням. 


1. Вибір мовленнєвого образу для першого рівня 


У попередніх роботах при побудові граматики на першому рівні обмежень на 
порядок слідування фонем не накладалося. Не дивлячись на швидке виконання, робас- 
ність системи розпізнавання є далекою від бажаної, особливо для кооперативу дикторів. 
Тепер пропонується розглядати склади як альтернативні мовленнєві образи, які все ще 
слабо залежать від словника. 

Проаналізовані два шляхи вибору складів: на основі правил складоподілу та 
відкриті склади. 

Вибір на основі правил складоподілу випливає з евристичних тверджень 
лінгвістичної науки щодо розміщення меж складів в залежності від сполучень 
фонем. Відкриті склади закінчуються голосним звуком або фонемою-паузою. Вибір 
складів на основі масиву даних також знаходиться у сфері інтересів і планується в 
подальших дослідженнях. 
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Словники складів були сформовані автоматично на базі частотного словника 
української мови обсягом у 137 640 слів. Хоча порядок слідування складів вільний, все ж 
на відкриті склади накладається додаткове обмеження: склади, які закінчуються фоне- 
мою-паузою, завжди слідують за складом, що закінчується голосним звуком. 


Таблиця | - Фонемна коректність при розпізнаванні в залежності від типу 
мовленнєвого образу для різних україномовних навчальних вибірок 
Навчальна Кількість моделей Фонемна 
й Тип мовленнєвого образу ; 
вибірка мовленнєвого образу | коректність 

11000 слів монофон 55 46,0 
й склад на основі правил 

нОМрЮНВ складоподілу 9 436 79.5 

11000 слів відкритий склад 4 966 78,3 

100 речень монофон 55 49,3 
склад на основі правил 

ПОРО п ОПО цілу 9436 56,8 

100 речень відкритий склад 4 966 99 


Табл. 1 ілюструє, що для окремо вимовлюваних слів поскладова граматика іс- 
тотно покращує коректність пофонемного розпізнавання (до 1,6 разів) порівняно з 
розпізнаванням в умовах вільного порядку слідування фонем. Середня довжина 
українського слова складає 7,43 фонеми 1 максимальна - 20 фонем. В усіх випадках 
розпізнавання проведене з використанням системи Ліпи8-Ліап |3|, виконується у 
реальному часі, який приблизно однаковий для розглянутих видів складів. Слід також 
зазначити, що склади, вибрані на основі правил, дають кращий результат. 


2. Моделювання процедури постпроцесингу 


На виході поскладового розпізнавача ми маємо М 2» 1 кращих послідовностей 
складів, яким відповідає послідовність фонем Ф, а (о фону, но то1:М, 
де О" - довжина г-ї спостережуваної послідовності. Крім того, в результаті вико- 
нання першого рівня, кожна Ф, супроводжується оцінками акустичних параметрів, 

| пад сь Р ія 
таких як тривалість фонеми а, її ймовірність ДЕ", і, можливо, іншими параметрами 
(енергія, рух основного тону тощо). Фактично ми розглядаємо послідовність фоне- 


тично-акустичних подій, які спостерігаються після застосування поскладового 
розпізнавання. 


Метою постпроцесора є отримати для всіх Ф а , го21:М загалом М1»» 1 прихова- 
них послідовностей фонем я б Р Тр АН пу ІЙ п1еї1:МІ, у є Ф«Ф, і по- 
ставити їм у відповідність послідовності слів г 7 в бно ), удАПУмО 


М2»»1 і і є /, де /- лексикон. Щоб уникнути втрати фактичних послідов- 


ностей слів, зберігаємо М2 2» І відповідей розпізнавання. 
Таким чином, ми інтерпретуємо спостережувані підпослідовності фонем 


Р й ї г1 
ФГ (т анна , и, -1Хи,, як перетворену приховану 5 - у фонему у/,, 


регулярної транскрипції К-ї слова /,, - и Й . Имовірність того, 
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що спостережувана підпослідовність Ф'/ , - (р оф анннф , де (5, -5, -1)-1Ї - 


5 


довжина спостереження, є реалізацією прихованої транскрипції К-го слова 
Пе нн) виражається добутком незалежних спотворень, що 


максимізується за границями Чи,) прихованої фонеми у//: 


Ч 
Р тах ПР, , /мг) 0 
ЗР 


з Ф,) 


не пов'язаний з прихованою у/ . В іншому випадку множник Р(Ф,,, / у) обчислюється як 


Тут кожний множник Р(Ф,,/у/) дорівнює 0, якщо Ф,, - (Ф,.,,Ф 


на 


функція Ф,, і у, що враховує частотність та параметри нормального закону, яким 


описуються акустичні складові (4,, ДЕ тощо). 


и? 
Кожна послідовність фонетико-акустичних подій обробляється запропонова- 
ним фільтром засобами динамічного програмування, як це показано на рис. 2. Тут 
ми спостерігаємо послідовність фонем (фонетичних подій) (я, збо, ,9.), отриманих 


поскладовим розпізнавачем, за умови чотирьох прихованих фонем, представлених 
їх акустично-фонетичними моделями (АФМ). Прихована фонема може бути замі- 
нена однією, двома або трьома спостережуваними фонемами або бути пропущеною, 
тобто спостерігатися як порожня фонема (2. Пунктирні лінії означають переміщення 
між моделями, що описуються граматикою, яка генерується на основі лексикону. 
Суцільні лінії показують внутрішні детерміновані переміщення. 


Внутрішні стани «Перехідні стани 
и У» 


с Ф| Й 

ш ї 

бо і 

Ф н КУЛЕЮ Р 

Ж Ф; 

- о А 

о 

9 т п ння З 

о 9 «КАЧаЕСЗ 
о й 
о 

с 

о Ф 


Рисунок 2 - Граф постпроцесингу для чотирьох фонетичних подій 


Лексична складова постпроцесора забезпечує обмеження на послідовності фонем 1 
виконання завершального перетворення фонем на графеми включно з визначенням 
границь слів. 

Таким чином, М »» | кращі послідовності фонем, отримані в результаті дії 
першого рівня, перетворюються на 2 »» І послідовностей слів. 

Параметри ймовірності (1), які також є параметрами АФМ, оцінюються за 
навчальною вибіркою згідно з |4|. На рис. 3 ми ілюструємо граф побудови потен- 
ційних АФМ для відповіді розпізнавання «рай К 51 о о рай» за умови вимовленого 
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слова «рай 151 о п ої рай» («цього»). Оптимальні траєкторії відображені суцільними 
лініями, а частина допустимої, але не оптимальної траєкторії позначена пунктирною 
лінією. Тут отримано такі фонемні описи для прототипів: 

(РАДО, К / рам, 4), 2 (РАЮ, К / рай, 5), 3:(РАП / рам, 6); 4:(К / 1, 151, 7), 5:(К, 5/2, 
151, 8), 6:(58 / 3, 151, 9); 7:(5, О / 3, е!1, 9), 8:(о / 45, О, 9); 9:(2 / 678, П, 11); 10:(о / 6|718, 
В, 12); 11(о / 9, 01, 13); 12:(2 / 10, 01, 13); 13. (РАД / 1112, рам). 

У дужках перед похилою рискою позначена послідовність фонем, яка замінює 
модельну фонему. Кожна фонема з послідовності асоціюється зі станом моделі, а 
фонема, позначена великою літерою, асоціюється з тим станом, який позначає фонеми, 
що збігаються зі спостережуваними. Праворуч від похилої риски зазначено ім'я моделі 
фонеми і ідентифікатори сусідніх модельних прототипів. Додатково зазначається 
ймовірність кожного модельного прототипу. 

Зауважимо, що акустичні складові моделей поновлюються для кожного прототипу 
з метою побудови глобальної моделі ітераційним шляхом або шляхом вилучення 
менш імовірних моделей. 


спостереження 


Рисунок 3 - Граф побудови потенційних прототипів акустико-фонетичних моделей 
за навчальною вибіркою 


3.База даних 1 знань 


База даних і знань включає україномовний мовленнєвий корпус для оцінки пара- 
метрів акустичних і акустично-фонетичних моделей (АФМ) для формування лексикону. 

Ми використовували україномовний багатодикторний мовленнєвий корпус, який 
містить понад 30 000 реалізацій слів і тисячі речень близько 100 дикторів, що меш- 
кають у різних областях України. Реалізації зберігають частотні пропорції фонем і є 
фонетично збалансованими (31. 

Лексикон містить близько 2 мільйонів словоформ, яким відповідають 151 000 
основних форм (лем). Фактично цим лемам відповідає більше 3 мільйонів слово- 
форм, але у багатьох з них однакова орфографія 1 вимова |51. 

На основі лексикону та текстового корпусу обсягом 250 МБ було згенеровано 
частотний словник на 157 000 слів. 
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Модуль перетворення фонемного тексту на орфографічний використовує 22 уза- 
гальнених правила відображення символьних послідовностей 1 звертається до всього 
лексикону. Фактично на стадії обчислення вузлів на графі (рис. 1) замість цього модуля 
можна використати асоціативні масиви послідовностей фонем (2- і 3-грами), що трап- 
ляються в середині слів. 


4. Експериментальні дослідження 


Експеримент ділився на стадії (1) підготовка навчальної та контрольної вибірок, 
(2) фонемне навчання, (3) поскладове розпізнавання, (4) оцінка параметрів постпро- 
цесора, (5) тестування постпроцесора. 

Для навчання фонем вибірка формувалась з реалізацій україномовного багато- 
дикторного мовленнєвого корпусу. Ми розглядали окремі (ізольовані) слова для 
оцінки параметрів акустичних моделей фонем. Загалом ми мали близько 19 858 
реалізацій слів 1 147 445 реалізацій фонем, окрім фонеми-паузи, від 70 дикторів. 

Алфавіт, який використовувався, містить 55 базових фонем (монофонів). Серед 
них як наголошені, так і ненаголошені варіанти голосних звуків, варіанти, що пала- 
талізують (пом'якшують) приголосні звуки і фонема-пауза. Частотність кожної фонеми 
не-паузи у навчальній вибірці знаходиться між 30 (пом'якшені "5р' 1 "7Б') і 1200 для 
ненаголошеної "0". Модель короткої паузи не була передбачена, оскільки навчальна 
вибірка включає лише ізольовані слова. 

Акустичні моделі були навчені і вдосконалені з використанням програмного 
комплексу НТК |6| для кожного з 55 монофонів і фонеми-паузи. При вдосконаленні 
були враховані акустична мінливість і частотність фонем. Отримані моделі фонем 
мають кожна три стани 1 від 4 до 12 гауссівських сумішей. 

Поскладове розпізнавання було здійснене з використанням програмного комп- 
лексу Ліап |3| для двох наборів складів: відкриті склади 1 склади на основі правил з 
відповідними граматиками згідно з розділом 2. 

Відповідь поскладового розпізнавання, включно з сегментацією 1 критерієм фонем, 
використовувалася для оцінки параметрів акустично- -фонетичних моделей (АФМ). Для 
цього ми скористалися усномовними даними одного диктора, які не використовувалися 
при побудові акустичних моделей фонем. Ці усномовні дані складалися зі слів, отрима- 
них в результаті сканування частотного словника, починаючи з найбільш частотного 
слова, і відбору тих слів, що містять нові трифони. Загалом таких слів було записано 
8 000, серед яких перших 3 000 записано двічі. Ми провели оцінку різної кількості моде- 
лей для різних початкових умов, як описано в табл. 2 


Таблиця 2 - Результати процедури постпроцесингу 


АФМ Загальних/ з; Словесна 
Тестовий 

Тип складу навчального | використаних корпус М2 | похибка, 
корпусу АФМ о 
На основі правил 5 000 3700/3300 | 6000Ослів | 5 4,7 
Відкритий 5 000 3 900 / 3 300 6 000 5 92 
На основі правил 5 000 3 700 / 3 300 6 000 7 4,5 
Відкритий 5 000 3 900 / 3 300 6 000 К; 4,8 
На основі правил 11 000 7500/7000 2 10093 З 4,9 
Відкритий 11 000 7 900 / 3 300 2 10093 9 о 
На основі правил 11 000 3700/3300 | 100 речень| 5 18,2 


Перед перевіркою постпроцесора ми скорегували його лексичні параметри: обме- 
ження щодо наголошеної голосної були зняті 1 у відповіді розпізнавання допускалася 
послідовність слів. У всіх експериментах використано повний словник (2 млн словоформ). 
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Постпроцесор був випробуваний на різних наборах ізольованих слів, а відповідь 
розпізнавання отримувалась у формі Х2-кращих послідовностей слів. 

З усього випливає, що точність постпроцесора складає близько 95 90 для ізольо- 
ваних слів. Істотне погіршення на реченнях викликано численними короткими словами з 
високим критерієм. Штраф на переміщення між словами на графі постпроцесора, 
можливо, поліпшив би результат. 


Висновки 


Запропонована модель є актуальною для мов з великою кількістю словоформ та 
відносно вільним порядком слідування слів, до яких відносяться і слов'янські мови. 

Більш відповідна акустична модель для розпізнавання мовлення - це фонемно- 
трифонна модель, оскільки враховується явище коартикуляції. Фонемно-трифонна модель 
оперує (ФІЗ породжувальними граматиками, і обсяг обчислень зростає у |ФІ2 разів, 
порівняно з монофонною моделлю. Окрім цього, оброблення фонемно-трифонної 
граматики потребує значно більше обмежень, що призводить до додаткових обчислень. 
Таким чином, доцільно вибрати значення М, близьке до числа |Ф|, і навіть більше з 
метою досягнення оптимальних витрат пам'яті 1 обчислення. 

Проблема залишається в тому, яким чином запобігти втраті оптимального розв'язку. 

Недоліком кожного постпроцесора є його активація після закінчення базового 
процесу. Отже, слід розглянути шляхи інтеграції постпроцесора в обчислення вузлів 
графа поскладового розпізнавання. 

Автоматичне формування множини складів або альтернативних мовленнєвих 
образів нижчого, ніж слово, рівня за масивом даних є метою подальших досліджень. 
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Н.Б. Васильева, Н.М. Сажок 

Моделирование многоуровневого послогового распознавания речевого сигнала 

В статье проводится распространение многоуровневой многозначной модели автоматического распознавания 
слитной речи на случай послогового распознавания. Рассматриваются два уровня из трех. На первом уровне 
проводится распознаваниє в условиях послоговой грамматики, на втором уровне проводится обработка. 
(постпроцессинг) исходньгх данньгх первого уровня с целью получения соответствующих последовательностей 
слов. В описанной модели постпроцессинга обращаєтся вниманиє на полученньвю оценки акустических 
составляющих речевого сигнала, а последовательность и фонетическиє особенности вместе с лексиконом. 
Анализируются пути вьіора множества единиц на слоговом уровне речевьтх образов. Описьтваєтся 
многодикторньюш речевой корпус и лексикон, которьте использованьт в зкспериментальном исследований. 
Обсуждаются результатьт зкспериментов, проблемьі и будущиє исследования. 


Стаття надійшла до редакції 23.07.2008. 
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